智能论文笔记

源代码（MLONCODE）上的机器学习有望改变软件的交付方式。通过挖掘软件伪像之间的上下文和关系，mloncode通过代码自动生成，代码建议，代码自动标记和其他数据驱动的增强功能增强了软件开发人员的功能。对于许多任务中，代码的脚本级别表示足够，但是，在许多情况下，要考虑各种依赖关系和存储库结构的存储库级表示，例如，自动标记存储库具有主题或自动记录的存储库。代码等，用于计算存储库级表示的现有方法受（a）依赖代码的自然语言文档（例如，读书文件）（b）方法/脚本级表示的天真聚集，例如，通过串联或平均值。本文介绍了一个深度神经网络，该网络可直接从源代码中生成可公开可用的GitHub代码存储库的存储库嵌入。主题结合了一种注意机制，该机制将源代码，完整依赖关系图和脚本级别的文本信息投射到密集的存储库级表示中。为了计算存储库级别的表示，局部训练可以预测与存储库相关的主题，该主题是在公开可用的GitHub存储库数据集中，这些存储库与他们的地面真相主题标签一起爬行。我们的实验表明，局部计算的嵌入能够胜过多个基线，包括通过在存储库自动标记的任务下平均或串联来天真地结合方法级表示的基线。

translated by 谷歌翻译

Encoding NetFlows for State-Machine Learning

Clinton Cao , Annibale Panichella , Sicco Verwer , Agathe Blaise , Filippo Rebecchi

分类：机器学习

2022-07-08

NetFlow数据是许多网络分析师和研究人员使用的众所周知的网络日志格式。与PCAP相比，使用此格式的优点是，它包含的数据较少，隐私侵入性较小，并且更易于收集和处理。但是，较少的数据确实意味着这种格式可能无法捕获重要的网络行为，因为将所有信息汇总到统计信息中。许多研究旨在通过使用机器学习来检测网络中的攻击来克服这一缺点。许多方法都可以用于在使用NetFlow数据来训练机器学习算法之前预处理数据。但是，其中许多方法只是将现有方法应用于数据，而不是考虑网络数据的特定属性。我们认为，对于源自软件系统（例如NetFlow或软件日志）的数据，频率和特征值上下文的相似性比值本身的相似性更为重要。因此，在这项工作中，我们提出了一种编码算法，该算法在处理数据时直接考虑特征值的频率和上下文。可以使用此编码来聚集不同类型的网络行为，从而帮助检测网络中的异常。从监视清洁系统获得的这些群集的窗口中，我们学习了状态机器行为模型以进行异常检测。这些模型非常适合建模NetFlow数据中存在的循环和重复模式。我们在一个新数据集上评估了我们为检测Kubernetes群集和两个著名公共NetFlow数据集中的问题而创建的编码。国家机器模型获得的性能结果与使用更多功能的现有作品相媲美，并且需要清洁和受感染的数据作为培训输入。

translated by 谷歌翻译

为了调节机器学习驱动的系统（ML）系统，当前的审核过程主要集中于检测有害算法偏见。尽管这些策略已被证明具有影响力，但在审计过程中涉及ML驱动系统中伦理的文档中概述的一些价值仍然不足。这种未解决的值主要处理无法轻易量化的上下文因素。在本文中，我们开发了一个基于价值的评估框架，该框架不限于偏见审计，并涵盖了算法系统的重要道德原则。我们的框架提出了值的圆形布置，并具有两个双极尺寸，这些二极管尺寸使共同的动机和潜在的紧张局势明确。为了实现这些高级原则，然后将价值分解为特定的标准及其表现形式。但是，其中一些特定于价值的标准是相互排斥的，需要协商。与仅依靠ML研究人员和从业者的意见的其他一些其他审计框架相反，我们认为有必要包括利益相关者，这些利益相关者表现出各种观点，以系统地谈判和巩固价值和标准紧张局势。为此，我们将利益相关者绘制有不同的见解需求，并为将价值表现传达给他们的量身定制手段。因此，我们通过评估框架为当前的ML审计实践做出了贡献，该实践可视化价值之间的亲密关系和紧张局势，并给出了如何对其进行操作的准则，同时向广泛的利益相关者开放评估和审议过程。

translated by 谷歌翻译